رفع ابهام از همنویسه ها در متون فارسی با روش های نیمه نظارتی

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
  • نویسنده فاطمه صدقی
  • استاد راهنما نوشین ریاحی
  • سال انتشار 1392
چکیده

در این پژوهش برای رفع ابهام از معانی همنویسه ها در متون فارسی، بر الگوریتم لیست تصمیم متمرکز شده ایم که در حالت پایه روشی نظارتی مبتنی بر پیکره است که برای آموزش طبقه بند تنها از کلمات پیرامون هم نویسه که همرخداد نامیده میشوند در پیکره ی آموزشی استفاده می کند. پیکره ی کوچکی برچسبگذاری شده و تلاش بر این بوده که با استفاده از پیکره های بدون برچسب که به سادگی و در اندازه های بزرگ در دسترس اند کارایی الگوریتم لیست تصمیم که تحت تأثیر کمبود نمونه های برچسبدار است، بهبود یابد. نخست با الهام از tri-training یک روش نیمه نظارتی معرفی شده که از سه دیدگاه نحوی افعال، اسامی و حروف؛ برای خودگردانسازی آموزش یعنی برچسبگذاری یک پیکره ی بزرگ با استفاده از یک فرضیه ی یادگیری شده از روی یک پیکره ی کوچک برچسبدار بهره میبرد. روش نیمه نظارتی tri-training روشی تکرارشونده است که کارایی آن به تخمین دقت طبقه بند مرحله ی قبل وابسته است و ازاین رو در صورت پایین بودن دقت برچسبگذاری طبقه بند مرحله ی قبل، ممکن است کارایی مطلوب به دست نیاید. استفاده از سه دیدگاه گرامری به بالا رفتن دقت کمک میکند. ارزیابی انجام شده نشاندهنده ی بهبود نتایج فراخوان تقریبا بین 2 تا 45 درصد، نسبت به لیست تصمیم پایه در هنگام کوچک بودن نمونه های آموزشی است. همرخدادها ویژگی مهمی در آموزش فرضیه های یادگیری روشهای رفع ابهام اند. تشخیص همرخدادهای موثر و تخصیص طبقه به هریک از آنها در هر یک از روشهای رفع ابهام به نحو خاصی انجام می شود. کوچک بودن پیکره ی آموزشی در روش های مبتنی بر پیکره بر این تشخیص ها تأثیر نامطلوب می گذارد. بنابراین از روش های استخراج همرخدادی به وسیله ی پیکره های بزرگ بدون برچسب میتوان بهره برد. روش به کار رفته در این پژوهش علاوه بر توانایی تشخیص همرخدادها میتواند جایگاه های هم رخدادی نسبت به همنویسه که موضوع تأثیرگذاری بر کارایی است را نیز تعیین کند. ارزیابیها نشان داده که استفاده از این همرخدادها میتواند دقت لیست تصمیم را عمدتا بین 2 تا 3 درصد بالا ببرد. در سومین روش پیشنهادی از ایده ی استخراج هم رخدادهای پیشنهاد شده در روش پیشنهادی دوم استفاده شده تا دقت خودگردان سازی الگوریتم tri-training افزایش یابد. به این ترتیب این امکان فراهم می شود تا بدون استفاده از سه دیدگاه گرامری نیز-که به معنای نیازمندی به برچسب گذاری گرامری پیکره ی بدون برچسب بود- بتوان خودگردانسازی را بهبود داد.

منابع مشابه

رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی LDA

Word sense disambiguation is the task of identifying the correct sense for the word in a given context among a finite set of possible sense. In this paper a model for farsi word sense disambiguation is presented. The model use two group of features: first, all word and stop words around target word and topic models as second features. We extract topics from a farsi corpus with Latent Dirichlet ...

متن کامل

سامانۀ رفع ابهام معنایی از حروف اضافه در زبان فارسی با استفاده از قالب‌های معنایی

رفع ابهام معنایی از کلمات در بافت یکی از مهم‌ترین چالش‌ها در حوزۀ پردازش زبان طبیعی و زبان‌شناسی رایانشی است. در این میان حروف اضافه، به‌خصوص در زبان فارسی، در پژوهش‌های مربوط به رفع ابهام معنایی همواره نادیده انگاشته شده‌اند. ازاین‌رو، پژوهش حاضر قصد دارد با ارائۀ الگوریتمی جدید مبتنی بر قالب‌های معنایی، سامانه‌ای قاعده‌مند جهت رفع ابهام معنایی از حروف اضافه «از»، «در»، «با» و «تا» در زبان فار...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی lda

ابهام زدایی از واژگان مبهم و دارای معانی متعدد موضوع مهمی در حوزه ی پردازش زبان های طبیعی می باشد. در این مقاله، مدلی برای رفع ابهام از واژگان مبهم فارسی بر اساس استخراج ویژگی های جدید پیشنهاد شده است. برای ایجاد این مدل دو دسته ویژگی واژگان و نشانه های همراه واژه مبهم و ویژگی هایی که با بکار بردن روش های مدل سازی موضوع بدست می آید، استفاده شده است. یک مدل موضوعی، مدلی آماری برای استخراج چکیده ...

متن کامل

بررسی ضرورت رفع ابهام از مفاد قرارداد

چکیدهدر میان نظام های حقوقی اتفاق نظر وجود دارد که قرارداد مبهم امکان اجرایی ندارد و در نتیجه، باطل است؛ این اتفاق در جایی منجر به اختلاف می شود که بخواهیم حدود ابهام و مفاد قراردادی مشمول آن را تعیین کنیم؛ آنگاه هر نظام حقوقی نظر خاصی را در خصوص میزان ابهام سبب بطلان در مورد موضوع، عوض و سایر شرایط عقد دارد. در نظام حقوقی ایران، فقها ابهام سبب غرر را ملاک قرار می دهند و حقوق دانان میان معین بو...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023